算术平均数:简单背后有乾坤 | 说人话的统计学·协和八
在上一集中,我们讨论了对数据进行探索性分析的重要性,以及一些最常用的探索性分析的方法和工具(戳这里回顾上一集《数据到手了,第一件事先干啥?》)。
其中我们提到,对于连续型数据而言,我们需要掌握的一项重要信息是它的“集中趋势”。也就是说,对某个我们感兴趣的变量,如果我们想用一个数来表示整个数据集里各个个体的平均水平,这个数该是多少?上一集中我们讲过,算术平均数和中位数是两种常见的概括集中趋势的方法。它们不仅能揭示数据大略的样子,还是我们走近数据背后本质规律的第一步。
今天,我们就来仔细研究一下算术平均数,聊聊关于它的那些你不知道的事儿。
✎
如果要在浩如烟海的统计学里找一个最为人熟知的概念,恐怕这个头衔只能落到算术平均数的头上。它的定义是那么的简单:
假设我们对某个量进行了n次观测,把测量到的数值分别记为X1, X2,…, Xn,那么要得到算术平均数
不论有没有正式学过统计学,用算术平均数来估计数据背后的总体规律都是几乎每个人的自觉反应:你开了一个煎饼摊儿,想看看自己生意做得怎样,可能你会首先算算平均每天卖掉多少张饼;你是环保局长,想知道你的城市空气质量有没有在变坏,你会把今年PM2.5的平均值跟往年的比一比;你是陈奕迅的经纪人,要给他策划下次演唱会的曲目,也许你会看看哪几首歌在各大网站的平均点击率最高。
算术平均数显得自然而然、顺理成章,又是如此公平、民主——每个数据都均等地贡献了自己的一份,既不多也不少。
而更重要的是,算术平均数也没有辜负人们对它这种来自直觉的信任。千百年来,算术平均数可以称得上是身经百战、久经考验了——人们用它来认识世界、指导决策,甚至预测未发生的情况,都得到了很好的效果。这从实践上说明,算术平均数具有优良的性质,的确能够反映事物的本质。
可是为什么呢?
用算术平均数来估计总体的平均水平,感觉好像挺对的,用起来效果也不错,但这都不是真正有理有据的证明。作为科学新青年的我们,今天就来刨根问底一下。
✎
重复测量取平均值
让我们来回想高中物理课,如果你要用游标卡尺测量一个物体的长度,怎样做能使测量更准确?姑且让我们假设,16岁的你没把心思全花在偷瞄那些年你追过的女生(们)上,你也许还记得,那时用的就是多次测量取平均值的方法。为什么?老师说,这样做可以减少误差,而咱们下面的讨论就是从误差讲起的。
如果我们戴上频率主义者的帽子,我们会认为,要测量的物体有一个真实、唯一(但我们并不知道)的长度,我们将其记为μ。我们对物体的长度进行n次测量,得到了数据X1, X2, …, Xn,需要根据这n个数据作出一个对μ的估计。既然我们希望知道真实值μ,现在我们的任务就是,怎样的估计才会尽可能接近它?
我们试着从误差的角度来想一想这个事儿。所谓误差,就是测量值和真实值的差异。用e1, e2, …, en来表示每个测量值的误差,那么就有
需要注意的是,这里我们所说的误差,并不是由于尺子本身不准、测量方法不正确(比如总是往一边歪着脑袋读数之类)等原因所导致的(这些原因导致的误差被称为“系统误差”),更不是由于人为疏忽而产生的。它是纯粹由于随机因素而产生的、无法消除的测量值与真值的偏差,因此被称为“随机误差”。
极大似然估计
别忘了,我们的任务是要通过X1, X2, …, Xn来估计μ,这个跟误差有什么关系呢?我们可以这样想,我们手上有n个数据,根据上面误差的定义,就相应有了n个误差。当然,μ是个未知数,因而这n个误差分别是多大我们现在也不知道。假设我们挑了一个数
如果随机误差e1, e2,…, en服从某种已知的规律,那么我们观察到这些误差的概率
就是一个关于
最大。也就是说,在所有对μ的估计中,我们实际观测到的数据在这个
我们不妨来看看一个稍微有些极端的例子。假设我们对某物体的长度进行了五次测量,分别得到11.14cm, 11.20cm, 11.15cm, 11.17cm, 11.16cm。
一个人说,这个物体的真实长度是11.16cm;
另外一个说,不对,我觉得应该是11.22cm。
你会更愿意相信哪个人?
如果第一个人是对的,那么每次测量的误差就会是-0.02cm, 0.04cm, -0.01cm, 0.01cm, 1cm;
如果第二个人是对的,每次测量的误差就变成了-0.08cm, -0.03cm, -0.07cm, -0.05cm, -0.06cm。
你一定会觉得第一个人更靠谱儿——按照第二个人的说法,既然没有系统误差,那怎么可能每次测出来都比真实长度少呢?实在太难以置信了。
这种推理方式是频率主义统计学一种重要的思想,称为“极大似然估计”(maximum likelihood estimation, MLE)。说到底,其实它和我们在第一集《你真的懂p值吗?》(戳这里重温该集)里讲过的“反证法”是一回事。对真值μ的不同估计可以看成是不同的假说,而在这些假说的基础上,我们实际得到的数据出现的概率P(数据|假说)(即似然函数likelihood)就不同,由此我们选出那个能使P(数据|假说)最大的估计值
聪明的你应该也会意识到,这里我们并没有采用贝叶斯统计学的思路。也就是说,我们并不讨论不同的估计值
随机误差的性质
我们弄清楚了这一点,现在要做的就是要找出随机误差e1, e2, …, en 有什么样的性质,从而写出似然函数
既然它是一个关于
首先,既然随机误差是我们无法控制的,那么任意两个不同的测量值的随机误差ei和ej应该彼此没有关联,即相互独立。也就是说,ei有多大并不能影响ej可能取得哪个数值。因此,我们可以把似然函数拆开,变成每个随机误差出现概率的乘积:
也就是说,我们只需要研究单个随机误差取不同数值的可能性
其次,既然是随机误差,那么它应该在零点两侧的可能性是相同的。也就是说,如果重复测量很多次,取值为正和取值为负的误差个数会大致相当。这一点之所以成立,是随机误差定义本身的要求——如果误差的方向是可以预测的,那么误差中一定会包含系统误差的成分,因而我们总是能够把可预测的这部分消除掉(如采用更精确的仪器、更有经验的实验人员,甚至是直接把可预测的那部分误差从测量值中减掉),从而剩下在零点两侧对称的部分。更进一步说,对于绝对值相同的误差,取值为正和取值为负的可能性应该是一样的。
最后,绝对值小的随机误差出现的可能性应该比绝对值大的随机误差出现的可能性要来得大。这一点也不难理解。随机误差的绝对值实际上就是测量值与真值的偏差程度,在没有系统误差的情况下,测量值总归不会和真值差得太远,相差越大,可能性就越低。
然而,以上这些都只是非常粗略的描述。在概率论里,一个连续变量取不同数值的可能性大小需要用概率密度函数(probability density function, pdf)来表示。我们可以把概率密度函数想象成上一集我们讲过的频率直方图的抽象化。频率直方图描述的是一个变量的若干个具体观测值的分布情况,而概率密度函数表示的是一个变量在理论上的分布情况。
比如说,有一天我们完全掌握了长颈鹿脖子长度的生长规律和影响因素,那么我们就可以得到长颈鹿脖子长度的概率密度函数:
与频率直方图相似,概率密度函数的曲线下方在某一区间内的面积代表了变量在这一区间内取值的概率。从上图我们可以得知,长颈鹿脖子长度在3到4英尺之间的概率是0.15。不难想到,概率密度函数本身的取值只能为非负数(不然会出现无法解释的负概率),而且整个曲线下方的总面积(即积分)为1(因为无论怎样的分布,变量取值落在负无穷到正无穷之间的概率必然是1)。
误差分布的真面目
那么,随机误差的概率密度函数应该长什么样子?
我们对随机误差的性质有一些初步的认识,但是拥有这些性质的概率密度函数有无数个。比如说,下面的三个概率密度函数都符合我们说过的标准(正负对称,绝对值越大可能性越小):
两三百年前,一大波数学家和天文学家(因为误差对当时以观测为主的天文学研究十分重要)前仆后继地投入到了对误差分布的研究中,这个队伍中,有许多如雷贯耳的名字:伽利略、辛普森、拉格朗日、拉普拉斯……可是他们都没得到什么大进展,也许是因为这个问题实在有些纠结——随机误差看不见摸不着,也说不清楚来源到底是什么,仅仅依靠模糊的认识,加上一些难以证明正确与否的数学假设,实在很难往前再迈进一步。
这时,我们的主角出场了——他就是大名鼎鼎的德国数学家高斯:
高斯思考这个问题的方法十分独特(甚至有那么点儿鸡贼),充分体现了他天才的直觉。他想,既然大伙儿琢磨了半天误差分布都没搞出什么来,我也别按他们的套路去碰壁了。反正算术平均数都被人类用了千百年,没准儿它就是对真值的极大似然估计呢?干脆我来看看,什么样的误差分布
也就是说,高斯把这个问题整个儿颠倒了过来。之前我们想的是,先找到误差的概率密度函数,然后根据误差分布推出对真值的极大似然估计;结果高斯反其道而行之,他直接去猜测上帝的意图,假设算术平均数恰好就是极大似然估计,然后反过来寻找怎样的误差分布能使这一假设成立。
这个问题被高斯玩儿了这么个小花招之后,一下子简单多了。高斯证明了在所有的概率密度函数中,能满足上述要求的只有一个(详细证明不难,可见参考文献2的第14、15页),它就是
如果上面这条式子没有让你认出它是谁的话,我们再来看看它长什么样子:
不错,高斯推出来的正是著名的正态分布(normal distribution,也称高斯分布)!也就是说,如果我们对某个量进行重复测量的随机误差服从以0为中心的正态分布,那么算术平均数就是对真值的最大似然估计,从而千百年来人们对算术平均数的直觉是正确的。
我猜你一定会说,慢着慢着,高斯这样不是循环论证吗?他一上来就假设了算术平均值是最大似然估计,然后弄出正态分布这么个玩意儿,接着又说算术平均数的优越性,这脑洞是不是开得有点大?
说得好,可是怎样能够打破这个怪圈呢?
让我们下一集见分晓。
参考文献:
1. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.
2. 靳志辉:《正态分布的前世今生》
✪
想回顾「说人话的统计学」系列,请点